Spark - 程序员宅基地

Spark详解

标签： spark

Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。在之前的学习中，Hadoop的 MapReduce 是大家广为熟知的计算框架，那为什么咱们还要学习新的计算框架 Spark 呢，这里就不得不提到 Spark 和 Hadoop ...

Spark Standalone

Spark是基于内存计算的大数据并行计算框架，实际中运行计算任务肯定是使用集群模式，那么我们先来学习Spark自带的standalone集群模式了解一下它的架构及运行机制。 Standalone集群使用了分布式计算中的master-slave...

取代而非补充，Spark Summit2014精彩回顾

标签：取代而非补充，Spark Summit2014精彩回顾

Apache Spark开源生态系统在2014上半年大幅增长，已迅速成为大数据领域中...伴随着Spark平台的发展，Spark Summit2014于6月30日在旧金山正式展开为期三天的峰会，也是有史以来最大的Spark会议。Mate Zaharia在加州大

Spark连接Hive读取数据

标签： hive spark hadoop

从Hadoop环境搭建到Spark连接Hive的小白入门教程，一套流程走下来在多次的尝试中既可以熟悉linux命令行的应用，同时初步熟悉大数据技术。

Spark简介

标签： spark 大数据 hadoop

Spark是大数据的调度，监控和分配引擎。它是一个快速通用的集群计算平台.Spark扩展了流行的MapReduce模型.Spark提供的主要功能之一就是能够在内存中运行计算，但对于在磁盘上运行的复杂应用程序，系统也比MapReduce...

springboot基于spark-launcher构建rest api远程提交spark任务

标签： spark springboot 远程

参考文章：使用springboot构建rest api远程提交spark任务 github代码链接：github地址 1. spark集群及版本信息服务器版本：centos7 hadoop版本：2.8.3 spark版本：2.3.3 使用springboot构建rest api远程提交spark...

spark系列17： DataFrameReader读取json/parquet等格式文件详解

标签： dataframe rdd spark读取文件

1.DataFrameReader是什么？目标理解DataFrameReader的整体结构和组成 SparkSQL的一个非常重要的目标就是完善数据读取, 所以SparkSQL中增加了一个新的框架, 专门用于读取外部数据...val spark: SparkSession...

Spark3 读写 S3 Parquet, Hive, Hudi

标签： hadoop big data spark

Spark 读 S3 Parquet 写入 Hudi 表目录 Spark 读 S3 Parquet 写入 Hudi 表参考关于S3，S3N和S3A的区别与联系 Spark 读写 S3 Parquet 文件测试代码 pom.xml 配置文件 EMR Spark任务提交 spark-...

Spark分布式内存计算框架

标签： spark 大数据分布式

Spark是一种基于内存的、用以实现高效集群计算的平台。Spark有着自己的生态系统，但同时兼容HDFS、Hive等分布式存储系统，可以完美融入Hadoop的生态圈中，代替MapReduce去执行更高的分布式计算。

“spark三剑客”之SparkStreaming流式计算框架

标签： BigData Spark SparkStreaming

搞定sparkstreaming

Spark基础+Scala环境搭建+ Spark源码编译部署+ Spark配置History Server +通过算子实现WC例子

标签： hadoop spark

一、Spark基础知识二、Scala环境搭建 1、部署本地SCALA （1）官网下载2.12.15版本链接：Scala 2.12.15 | The Scala Programming Language （2）配置环境变量（3）cmd 检查一下本地 Scala部署...

企业Spark案例--酒店数据分析实战提交

标签： spark 数据分析大数据

第1关：数据清洗--过滤字段长度不足...importorg.apache.spark.sql.{DataFrame,Dataset,SparkSession} objectedu{ /**********Begin**********/ //此处可填写相关代码 caseclassPerson(id:String,Name:String,...